بازشناسی بر خط و بدون محدودیت دست نوشته فارسی

thesis
abstract

بازشناسی برخط نوشتار یکی از دشوارترین زمینه های شناسایی الگو و هوش مصنوعی بوده و همواره مورد توجه خاص محققان قرار گرفته است. پیچیدگی این زمینه, هنگام برخورد با زبان هایی مثل فارسی و عربی که حروف آن ها باتوجه به موقعیت شان در کلمه, شکل های متفاوتی به خود می گیرند, دوچندان می شود. تحلیل دست نوشته ی فارسی یا عربی در مقایسه با زبان های لاتین، به علت حضور اجزای کوچکی ("نقطه", "دونقطه" و ...) بالا یا پایین حروف آن ها دشوارتر است. ورودی یک سیستم بازشناسی دست نوشته برخط, یک قلم و صفحه حساس مانند صفحات کامپیوترهای جیبی است. در زمینه بازشناسی برخط نوشتار عربی یا فارسی تحقیقات چندانی صورت نگرفته است. تعدادی از کارهای گزارش شده در این زمینه, محدود به بازشناسی حروف منفصل بوده و یا در زمینه بازشناسی لغات, شیوه نوشتاری خاصی برای کاربران, از پیش تعریف شده و بازشناسی انجام شده محدود به تعداد لغات موجود در یک فرهنگ لغت از پیش تعیین شده, بوده است. در این پروژه, نرم افزاری طراحی و پیاده سازی شده است که به صورت برخط, عمل بازشناسی کلمات دست نوشته فارسی که هر ترکیبی از حروف فارسی می توانند باشند را, انجام می دهد. علت اصلی درنظر گرفتن لغت نامه برای یک سیستم بازشناسی, کاهش فضای جستجو در مرحله رده بندی و در نتیجه, افزایش درصد موفقیت بازشناسی است. این دو مسیله به گونه ایی دیگر در سیستم پیشنهادی محقق شده اند. در مرحله طراحی سیستم, مشخصات مسیر حروف فارسی به همراه جزء کوچک مخصوص هر یک, ثبت می شوند. برای هریک از حروف و اجزای کوچک, یک نمونه از مدل مخفی مارکوف چپ به راست نیز در نظر گرفته می شود (به جز نقطه). در مرحله بکارگیری سیستم, بازشناسی برای هر کدام از زیرکلمات یک کلمه، مستقلاً انجام می شود. ابتدا پس از دریافت دنباله نقاط نوشته شده توسط کاربر, زیرکلمات به همراه اجزای کوچک شان بر اساس یک سیستم تصمیم گیری فازی، مرتب می شوند. سپس بازشناسی اجزای کوچک, انجام شده و رشته ای از اسامی آن ها ساخته می شود. ایده ی اصلی سیستم پیشنهادی, انجام یک مرحله تولید نامزدهای معتبر زیرکلمه, براساس رمز مسیرهای حروف و انطباق هم زمان رشته اجزای کوچک با اجزای کوچک حروف نامزد است. مرحله تولید نامزد, بر اساس یک الگوریتم پیشنهادی بیش بخش بندی بر مبنای خواص ساختاری حروف فارسی, عمل می کند. بعد از بیش بخش بندی بدنه ی یک زیرکلمه، گرافی از نقاط پیشنهادی آن ساخته و در ریوس آن اطلاعات مفیدی از جمله رمز مسیر و بردار ویژگی تا ریوس بعدی متصل نگهداری می شوند. رده بندی نهایی نیز با انتخاب ترکیب حروفی که احتمال عادی شده نسبی آن بر اساس ویژگی های استخراج شده, بیشینه باشد صورت می گیرد. احتمال عادی شده ی نسبی یک زیرکلمه برابر با مجموع احتمال های حروف آن تقسیم به تعداد حروف مذکور می باشد. احتمال یک حرف نیز بر پایه ی بردار وی‍ژگی آن و مدل مخفی مارکوف آن حرف است. به علت فقدان یک مجموعه آموزشی استاندارد در زمینه بازشناسی برخط کلمات فارسی, مجموعه ای برای ارزیابی سیستم که شامل 200 لغت است و توسط 9 نفر نوشته شده اند, تهیه شده است. نتایج عملکرد سیستم بازشناسی بر اساس نرخ بازشناسی کلمات و زیرکلمات ارایه شده و حاکی از دقت مطلوب آن در هر دو نوع آزمایش وابسته به نویسنده و مستقل از نویسنده می باشد.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

بازشناسی برون خط کلمات دست نوشته فارسی در یک مجموعه ای از لغات

در این پایان نامه بازشناسی برون خط کلمات دست نوشته فارسی در یک فرهنگ لغت محدود مورد مطالعه قرار می گیرد. برای این منظور یک روش دو مرحله ای پیشنهاد می گردد. در مرحله نخست توسط الگوریتم های خوشه بندی سلسله مراتبی وisoclus کلمات موجود در فرهنگ لغت بر اساس تشابه خوشه بندی می شوند. ویژگی های تشابهی به کار رفته در این مرحله، بردارهای پروفایل بالا، پایین، پروژکشن عمودی و تعداد گذر از سیاه به سفید برای...

15 صفحه اول

خوشه بندی سبک نگارش دست نوشته برون خط فارسی

هدف این پایان نامه، یافتن و استخراج ویژگی هایی است که بر مبنای آن بتوان دست خط فارسی را خوشه بندی کرد. در این کار، در ابتدا بر روی ویژگی های مبتنی بر بافت، تمرکز شده است. این ویژگی ها شامل دو دسته ویژگی آماری ماتریس باهم آیی و ویژگی مبتنی بر تبدیل گابور است. برای استخراج این ویژگی ها، یک بافت مناسب در ابعاد 1024×1024 مستقل از محتوای سند، از تصویر دستنوشته ایجاد می شود. از ویژگی های دیگری که در ...

15 صفحه اول

بازشناسی کلمات دست نوشته با ویژگی های نوین و کاهش فرهنگ لغت

بازشناسی کلمات دست‌نوشته و تبدیل آن به متن تایپی معادل می‌ تواند در تفسیر دست‌نوشته و جستجو در اسناد بسیار حائز اهمیت باشد. در این مقاله سیستمی به منظور تشخیص برون‌ خط دست‌ نوشته فارسی در یک فرهنگ لغت محدود معرفی شده است. به منظور استخراج ویژگی، بعد از بلوک ‌بندی تصویر ورودی و استخراج مرکز هر بلوک توسط مرکز ثقل، میانگین مرکز اجزای متصل از الگوریتم سیفت متراکم استفاده شده است. از روش آنالیز تفکی...

full text

راهنمای آشنایی با ذخایر و دست نوشته های فارسی

هدف: احیای متون فارسی و دست نوشته های موجود در گنجینة نسخه های خطی کتابخانه ها، بحث تازه ای نیست و برخی از دانشمندان برجسته، در این زمینه خدمات شایانی ارائه داده اند، لکن فهرست های رایج، وافی به مقصود طالبان آثار نیست و این کار را باید جهتی نو بخشید و از شیوه های جدید و صحیح پیروی کرد. روش: در راستای روش های احیا و حفظ متون فارسی در تمام مراحل آن از جمله کتابت، مقابله، تصحیح، ترجمه، تدریس، ته...

full text

دست نوشته های اسماعیلیان بدخشان

در دور دست‌ها ، پهلو به پهلوی چین ، باریکه سرزمینی است ،‌‌ بسیار مرتفع ، با کوه‌های آسمان بوس و به هم فشرده‌ ، با معبرهای تنگ دشوار گذر، با زمستان‌های سرد نه ‌ماهه‌ ، برخوردگاه چهار تمدن بزرگ آسیا‌: ایران‌، هند‌، چین و آسیای مرکزی که دورترین نقطه است نسبت به همه‌ی آنها و پناهگاهی است امن برای رانده‌شدگان از سراسر این سرزمین‌ها ،نه تنها کسان که حتی باورها و اندیشه‌های کهن ، نه در کنار‌هم که آمیخ...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده مهندسی برق و کامپیوتر

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023